草庐IT

LLM 评估

全部标签

LLM会写代码≠推理+规划!AAAI主席揭秘:代码数据质量太高|LeCun力赞

自从ChatGPT发布后,各种基于大模型的产品也快速融入了普通人的生活中,但即便非AI从业者在使用过几次后也可以发现,大模型经常会胡编乱造,生成错误的事实。不过对于程序员来说,把GPT-4等大模型当作「代码辅助生成工具」来用的效果明显要比「事实检索工具」要好用很多,因为代码生成往往会涉及到复杂的逻辑分析等,所以也有人将这种推理(广义规划)能力归因于大型语言模型(LLM)的涌现。学术界也一直在就「LLM能否推理」这个问题争论不休。最近,计算机科学家、亚利桑那州立大学教授SubbaraoKambhampati(Rao)以「LLM真的能推理和规划吗?」(CanLLMsReallyReason&Pla

消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型

大模型的「幻觉」问题马上要有解了?威斯康星麦迪逊大学和谷歌的研究人员最近开发了一个名为ASPIRE的系统,可以让大模型对自己的输出给出评分。如果用户看到模型的生成的结果评分不高,就能意识到这个回复可能是幻觉。如果系统可以进一步筛选评分的结果进行输出,比如如果评分过低,大模型就可能生成「我没法回答这个问」,从而有望最大限度的改善幻觉问题。论文地址:https://aclanthology.org/2023.findings-emnlp.345.pdfASPIRE能让LLM输出答案以及答案的置信度得分。研究人员的实验结果表明,ASPIRE在各种QA数据集(例如CoQA基准)上显著优于传统的选择性预

亲手打造一个本地LLM语音助手来管理智能家居

经历过Siri和Google助手之后,我发现尽管它们能够控制各种设备,但却无法进行个性化定制,并且不可避免地依赖于云服务。出于对新知识的渴望以及想在生活中使用一些酷炫的东西,我下定决心,要追求更高的目标。我的要求很简单:我想要一个既幽默又带有讽刺意味的新助手。我希望所有操作都在本地完成,绝不例外。我家楼下的咖啡机没必要和国家另一端的服务器进行通信。我期望的功能不仅仅是简单的“开灯”,理想情况下,我还想在将来增加更多新功能。然而,实现这些要求的背后架构却远非简单。虽然我使用这些设备和基础设施做许多其他事情,但我们主要看到的是:ProtectliVaultVP2420,用于防火墙、入侵预防系统(N

AI和软件测试结合-使用LLM将自然语言生成TestCase

曾在工作之余,设想过一个能提升测试流程左侧效率的点子,结合人工智能,将自然语言自动转化为通用的功能用例、接口用例、代码单元测试用例等一系列用例,碰上这2年LLM模型大爆发,遂有自己炼一个用例生成的专用模型的想法。首要需求分析用户需求:用户能够以自然语言形式描述测试需求和条件,例如验证某个功能模块、检查特定的输入输出等。用户期望系统能够根据输入的描述自动生成具体的测试用例,简化测试用例编写的工作量。用户需要系统生成的测试用例具有可执行性、覆盖性和有效性,以确保软件质量和功能完整性。功能需求:自然语言处理:系统需具备自然语言处理能力,能够理解用户输入的测试需求和条件,提取关键信息。生成测试用例:系

人类千亿科学豪赌与参差的中美景观;超赞的LLM学习路线图;AI搜索引擎全面解析;美图AI动漫技术方案;O‘Reilly LLM新书预览 | ShowMeAI日报

👀日报&周刊合集|🎡生产力工具与行业应用大全|🧡点赞关注评论拜托啦!👀人类驶向新轨道:Adobe放弃收购Figma,与旧有规划割席https://www.figma.com/blog/figma-adobe-abandon-proposed-merger/补充一份背景:Adobe是最大的设计软件公司,Figma是最大的界面设计软件公司;Adobe在2022年收购Figma是顺应时代潮流,在2023年底停止收购也是2022年9月,Adobe宣布与Figma达成收购意向,给出的价格是200亿美元;2023年12月,双方宣布停止此项收购计划,Adobe向Figma支付10亿美元违约金。Figma构建

2024年甘肃省职业院校技能大赛信息安全管理与评估 样题二 理论题

竞赛需要完成三个阶段的任务,分别完成三个模块,总分共计1000分。三个模块内容和分值分别是:1.第一阶段:模块一网络平台搭建与设备安全防护(180分钟,300分)。2.第二阶段:模块二网络安全事件响应、数字取证调查、应用程序安全(180分钟,300分)。3.第三阶段:模块三网络安全渗透、理论技能与职业素养(180分钟,400分)。模块三网络安全渗透、理论技能与职业素养一、竞赛内容第三阶段竞赛内容是:网络安全渗透、理论技能与职业素养。本阶段分为两个部分。第一部分主要是在一个模拟的网络环境中实现网络安全渗透测试工作,要求参赛选手作为攻击方,运用所学的信息收集、漏洞发现、漏洞利用等渗透测试技术完成对

LLM之RAG实战(一):使用Mistral-7b, LangChain, ChromaDB搭建自己的WEB聊天界面

一、RAG介绍   如何使用没有被LLM训练过的数据来提高LLM性能?检索增强生成(RAG)是未来的发展方向,下面将解释一下它的含义和实际工作原理。​    假设您有自己的数据集,例如来自公司的文本文档。如何让ChatGPT和其他LLM了解它并回答问题?    这可以通过四个步骤轻松完成:Embedding:使用embedding模型对文档进行embedding操作,比如OpenAI的text-Embedding-ada-002或S-BERT(https://arxiv.org/abs/1908.10084)。将文档的句子或单词块转换为数字向量。就向量之间的距离而言,彼此相似的句子应该很近,而

LLM、AGI、多模态AI 篇一:开源大语言模型简记

文章目录系列开源大模型LlamaChinese-LLaMA-AlpacaLlama2-ChineseLinlyYaYistanford_alpacaChatGLMtransformersGPT-3(未完全开源)BERTT5QwenBELLE

【机器学习】分类算法评估指标全总结(2023最新整理)关键词:准确率Accuracy、精确率Precision、召回率Recall、Micro F1、P-R、ROC、MCC、Cohen‘s kappa

目录一、定义二、混淆矩阵三、分类算法的评估指标1、准确率(Accuracy)2、精确率(Precision)3、召回率(Recall)Precision与Recall的权衡4、F1分数(F1Score)F-BetaScore宏平均F1分数(MacroF1)微平均F1分数(MicroF1)Macro与Micro的区别加权F1分数(WeightedF1)5、马修斯相关系数(Matthewscorrelationcoefficient)-MCC6、Cohen'skappa统计系数7、ROC曲线AUC-ROC曲线下的面积(areaunderthecurve)8、P-R曲线9、对数损失LogLoss和A

【LMM 016】3D-LLM:将 3D 点云特征注入 LLM

论文标题:3D-LLM:Injectingthe3DWorldintoLargeLanguageModels论文作者:YiningHong,HaoyuZhen,PeihaoChen,ShuhongZheng,YilunDu,ZhenfangChen,ChuangGan作者单位:UniversityofCalifornia,LosAngeles,ShanghaiJiaoTongUniversity,SouthChinaUniversityofTechnology,UniversityofIllinoisUrbana-Champaign,MassachusettsInstituteofTechno